06. TD 预测:动作值

TD 预测:动作值

和 TD(0) 相似,这个用于估算动作值的方法保证会收敛于真动作值函数,只要步长参数 \alpha 足够小。